我们研究了过度参数化模型中插值的必要性,也就是说,在实现机器学习问题的最佳预测风险时,需要(几乎)插值培训数据。特别是,我们考虑简单的过度参数性线性回归$ y = x \ theta + w $带随机设计$ x \ in \ mathbb {r}^{n \ times d} $在比例的渐近学$ d/n \ to \ gamma下\ in(1,\ infty)$。我们精确地表征了预测(测试)错误在此设置中必须使用训练错误缩放。这种表征的暗示是,作为标签噪声差异$ \ sigma^2 \至0 $,任何至少造成$ \ mathsf {c} \ sigma^4 $训练错误的估计器,对于某些常数$ \ mathsf {c}$必然是次优的,并且在训练错误中至少会遭受过多预测误差的增长。因此,最佳性能要求将培训数据拟合的精度要高于问题的固有噪声。
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译
Neural Networks (GNNs) have revolutionized the molecular discovery to understand patterns and identify unknown features that can aid in predicting biophysical properties and protein-ligand interactions. However, current models typically rely on 2-dimensional molecular representations as input, and while utilization of 2\3- dimensional structural data has gained deserved traction in recent years as many of these models are still limited to static graph representations. We propose a novel approach based on the transformer model utilizing GNNs for characterizing dynamic features of protein-ligand interactions. Our message passing transformer pre-trains on a set of molecular dynamic data based off of physics-based simulations to learn coordinate construction and make binding probability and affinity predictions as a downstream task. Through extensive testing we compare our results with the existing models, our MDA-PLI model was able to outperform the molecular interaction prediction models with an RMSE of 1.2958. The geometric encodings enabled by our transformer architecture and the addition of time series data add a new dimensionality to this form of research.
translated by 谷歌翻译
We present a novel approach to improve the performance of learning-based speech dereverberation using accurate synthetic datasets. Our approach is designed to recover the reverb-free signal from a reverberant speech signal. We show that accurately simulating the low-frequency components of Room Impulse Responses (RIRs) is important to achieving good dereverberation. We use the GWA dataset that consists of synthetic RIRs generated in a hybrid fashion: an accurate wave-based solver is used to simulate the lower frequencies and geometric ray tracing methods simulate the higher frequencies. We demonstrate that speech dereverberation models trained on hybrid synthetic RIRs outperform models trained on RIRs generated by prior geometric ray tracing methods on four real-world RIR datasets.
translated by 谷歌翻译
Coordinate-based implicit neural networks, or neural fields, have emerged as useful representations of shape and appearance in 3D computer vision. Despite advances however, it remains challenging to build neural fields for categories of objects without datasets like ShapeNet that provide canonicalized object instances that are consistently aligned for their 3D position and orientation (pose). We present Canonical Field Network (CaFi-Net), a self-supervised method to canonicalize the 3D pose of instances from an object category represented as neural fields, specifically neural radiance fields (NeRFs). CaFi-Net directly learns from continuous and noisy radiance fields using a Siamese network architecture that is designed to extract equivariant field features for category-level canonicalization. During inference, our method takes pre-trained neural radiance fields of novel object instances at arbitrary 3D pose, and estimates a canonical field with consistent 3D pose across the entire category. Extensive experiments on a new dataset of 1300 NeRF models across 13 object categories show that our method matches or exceeds the performance of 3D point cloud-based methods.
translated by 谷歌翻译
我们提出了一个基于网格的神经网络(MESH2IR),以生成使用网格代表的室内3D场景的声脉冲响应(IRS)。国税局用于在交互式应用程序和音频处理中创建高质量的声音体验。我们的方法可以处理具有任意拓扑结构(2K -3M三角形)的输入三角网格。我们提出了一种新颖的训练技术,可以使用能量衰减缓解培训网格2IR并突出其优势。我们还表明,使用我们提出的技术对IRS进行预处理的培训MESH2IR可显着提高IR发电的准确性。我们通过使用图形卷积网络将3D场景网格转换为潜在空间,从而降低了网格空间中的非线性性。我们的网格2IR比CPU上的几何声学算法快200倍以上,并且在给定的室内3D场景中,在NVIDIA GEFORCE RTX 2080 TI GPU上可以在NVIDIA GEFORCE RTX 2080 TI GPU上产生10,000多个IRS。声学指标用于表征声学环境。我们表明,从我们的网格2IR中预测的IRS的声学指标与地面真相相匹配,误差少于10%。我们还强调了Mesh2ir对音频和语音处理应用的好处,例如语音覆盖和语音分离。据我们所知,我们的是第一种基于神经网络的方法,可以实时预测给定的3D场景网格。
translated by 谷歌翻译
在本文中,我们提出了一类新的用于表结构识别(TSR)评估的度量,称为网格表相似性(Grits)。与先前的指标不同,Grits可以直接以其自然形式作为矩阵评估预测表的正确性。为了在矩阵之间创建相似性度量,我们将最大的最大公共子结构(2D-LCS)问题(是NP)概括为2D最相似的子结构(2D-MSS)问题,并提出了一个多项式启发式启发式方法解决它。该算法在矩阵之间的真实相似性上产生上层和下限。我们在大型现实世界数据集上使用评估表明,实际上,这些界限几乎没有区别。我们将沙粒与其他指标进行比较,并在经验上验证矩阵相似性比TSR性能评估的替代方案表现出更理想的行为。最后,刻在同一框架内统一了细胞拓扑识别,细胞位置识别和细胞含量识别的所有三个子任务,从而简化了评估,并可以在不同类型的TSR方法上进行更有意义的比较。代码将在https://github.com/microsoft/table-transformer上发布。
translated by 谷歌翻译
最近,已经取得了重大进展,将机器学习应用于表结构推理和从非结构化文件提取的问题。然而,一个最大的挑战之一仍然是在规模上创建数据集,以规模完整,明确的地面真理。要解决此问题,我们为表提取开发了一个新的更全面的数据集,称为Pubtables-1M。 Pubtables-1M包含来自科学文章的近100万表,支持多个输入方式,并包含表结构的详细标题和位置信息,使其可用于各种建模方法。它还通过新颖的规范化程序在先前数据集中观察到的,在先前数据集中观察到了一个重要的地面真理源代理。我们证明,这些改进导致培训表现的显着增加和对表结构识别评估时的模型性能更可靠的估计。此外,我们表明,基于转换器的对象检测模型培训 - 1M对检测,结构识别和功能分析的所有三个任务产生了优异的结果,而无需对这些任务的任何特殊定制。数据和代码将在https://github.com/microsoft/table-transformer发布。
translated by 谷歌翻译
随着神经网络的最新发展,在手拉电路的自动产生模拟现出电子电路的算法中存在复兴。然而,文学中的大多数方法被限制为分类不同类型的电气组件,并且只有少数这些方法已经示出了从扫描图像重建电路示意图的方法,这对于进一步的网表生成的自动化非常重要。本文提出了一种基于对象检测和电路节点识别自动识别手绘电路的实时算法。该拟议的方法使用您只看一次版本5(YOLOV5),用于检测电路组件和基于新的Hough变换基于节点识别的方法。使用yolov5对象检测算法,在检测组件时实现了98.2%的平均平均精度(MAP0.5)。所提出的方法还能够以80%的精度重建电路示意图,近实时性能为每次示意产生0.33s。
translated by 谷歌翻译
假设在某个时期,我们在未知图上为我们提供了一个耦合振荡器的系统以及系统的轨迹。我们可以预测系统最终是否同步?即使具有已知的基础图结构,这通常是一个重要但在分析上棘手的问题。在这项工作中,我们通过将其视为分类问题,基于任何给定系统最终将最终同步或收敛到非同步极限周期的事实来采用另一种方法来对同步预测问题。通过仅使用基础图(例如边缘密度和直径)的一些基本统计数据,当同步示例与非同步示例之间的基础图之间存在显着差异时,我们的方法可以达到完美的准确性。但是,在问题设置中,这些图形统计信息无法很好地区分这两个类(例如,当图形是从同一随机图模型生成的图形时),我们发现将初始动力学的一些迭代与图形统计数据配对为我们分类算法的输入可以导致准确性的显着提高;远远超过了经典振荡器理论所知的。更令人惊讶的是,我们发现在几乎所有此类设置中,删除了基本的图形统计信息,并仅使用初始动态来训练我们的算法几乎具有相同的精度。我们在三个连续和离散耦合振荡器的模型上演示了我们的方法 - 库拉莫托模型,萤火虫蜂窝自动机和绿色啤酒模型。最后,我们还提出了一种“集合预测”算法,该算法通过对从多个随机子图观察到的动力学进行训练,成功地将我们的方法扩展到大图。
translated by 谷歌翻译